總之,原本打算要寫的動物園之路,這條路線好像跟當初規劃的不太一樣,哈。
因為今天有去Hadoop in Taiwan 2013,所以就來分享一下這次去參加的心得。
已經打算把鐵人賽當作部落格在寫了
今年的開場是國網中心的王耀聰先生,他對Hadoop在台灣的社群推動可是不留餘力,剛才他在Hadoop in Taiwan的FB社群有放開場投影片,應該是可以分享一下連結(如果有疑慮我在趕快移除)
http://www.slideshare.net/jazzwang/13-0928-hadoopintaiwan2013opening
這次開放的報名人數好像有比較多一點,但是感覺熱度降了不少,我想應該是走入實際應用,發現與期待上的有點落差。但是今年的講題都還算蠻實際,實務上有可能會遭遇與面對的問題。
上半場基本上只有單軌議程,
第一個是Andrew Purtell 所分享的
Architectural patterns for building real time applications with Apache HBase
剛開場就提到關於hadoop無法完全做到Realtime的query,所以要借助HBase的功能來進行RealTime的查詢或分析,接下來他就陸續介紹關於HBase的應用架構,還有Streaming相關的應用。大致上都是把Batch與Streaming的資料存在HBase,然後結合Storm、Samza與Solr來做Realtime的應用。
接著由趨勢Jason Yueh所分享的
Big Data Security
重點就是要Enable Hadoop的kerberos,還有盡量不要放機敏資料在Hadoop上面,
如果要加密的話,要針對Data與網路傳輸進行加密,其中也從OS層的加密到應用層的監控都有講大概的解決方案,Big Data的保護方式其實跟以前的保護差不多,差異就在Big而已XD
The Spark Stack: Lightning-Fast Analytics over Hadoop Data
如果要用Hadoop做MLDM(機器學習與資料探勘)與RTAP(及時應用),Spark是一個很好的選擇,
簡單來說就是之前在Hadoop裡面做過運算的東西,Spark會keep在記憶體中,下次就不用在進行讀取磁碟,做一些迭代的運算時,就可以增加速度。
這個原理是使用RDDS,有點像是我算過的物件,把它存放在記憶體中,下次再進行運算就不用讀取硬碟,但是也可以藉由撰寫Spark的語法(scala),預先載入要運算的東西,這樣可以避免第一次比較慢的問題。
講者也有提到過去我們可能會使用MatLab進行ML/DM的運算,但是沒辦法做到ad-hoc的方式,如果使用Mahout其實又太複雜,這時候就可以使用Spark的子專案MLBase,運算的速度較快,寫起來也較容易。
Spark和Shark感覺明年會很多相關的應用出來...
基於 R 加Hadoop的高性能預測分析
基本上R是單機的,如果要能佈道Hadoop的節點上,要進行運算,
我記得是要錢了....所以沒有很大的興趣...
這個產品叫Revolution R。另一個免錢的是叫RMR,不過只能在MapRdeuce v1 執行。